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Be s chr e ibung 

Patientenidentif ikation zur Auswahl fiir Studien 

5 1. Fiir die Patienten-Ident if ikation werden mehr und 

detailliertere Daten benotigt als momentan zuganglich sind - 
wobei iitiplizit bereits viele Inf ormationen abgespeichert sind 
(in Form von unstrukturierten Texten, in Form von Bildern, 
etc . ) . 

10 Es geht also darum, bereits vorhandene, aber noch nicht 

zugangliche (z.B. aufgrund technologischer Hiirden) Daten zu 
dem Zweck der Patienten- / Site- Identif izierung zuganglich 
und nutzbar zu machen. 

15 Die Rekrutierung von geeigneten Probanden oder Patienten 
stellt den vielleicht aufwandigsten und problematischsten 
Schritt im Ablauf einer klinischen Studie dar. Bevor 
Patienten rekrutiert werden konnen, sind sie als 
,studientauglich' zu identif izieren. Dies geschieht anhand 
20 von Ein- und Ausschlusskriterien. Heute wird diese Bewertxing 
vorwiegend manuell anhand von Papierunterlagen vorgenommen . 
Mit Zunahme elektronisch verftigbarer medizinischer Daten 
werden diese Aufgaben durch Suchalgorithmen in Datenbanken 
ersetzt. Die einfachste Suche kann in hochstrukturierten 
Daten erfolgen. Leider ist der Hauptteil medizinischer 
Eintrage unstrukturiert , z.B. in Textform. Damit wird eine 
einfache Suche anhand von Stichwortern aufwandig und 
beztiglich des Suchergebnisses unbef riedigend, da die Medizin 
keine standardisierte Terminologie verwendet. So kann z.B. 
30 der , zuckerkranke ' identif iziert werden, der Diabetiker aber 
nicht, wenn einfache Suchalgorithmen verwendet werden. Noch 
komplizierter wird die Identif izierung von Patienten aus 
elektronischen Bildarchiven, z.B. die Erkennung von Tumoren 
in MR Oder CT Bildern. 
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2 . Suche in Papierakten manuell 

Einfache Suche in strukturierten Daten mittels SQL o.a, 
Einfache Textsuche a la Google 

3 . Vorhandene Datenquellen (xinstrukturierte Textdaten, 
Bilder, *omics daten) werden: 

- nach Relevanz fiir Patienten- /Site-Identif izierimg bewertet 
und identif iziert 

- digitalisiert, soweit notwendig 

- zugreifbar gemacht ( Implement ierung von Datenbank- 
Technologie und Erstellen einer Integrations- 

/ Trans f o rma t i ons - Z wi s chens ch i ch t ^ ) 

Unstrukturierte medizinische Daten 

Nutzung von Domanenwissen in Form von Nomenklaturen und 
Klassif ikationen, um auf Zugehorigkeit zu Krankheitsgruppen, 
spezifischen Krankheiten zu schlieSen 

Nutzung von Domanenwissen in Form von Wissensbasen oder 

Expertensystemen, um Zugehorigkeit zu bestimmten Krankheiten 

implizit zu schlieEen. 

Beispiele: 

o Expertenwissen: 

Eine Blutglukosekonzentration von 300mg/100ml legt den 
SchluE nahe, dass es sich um einen Diabetiker handelt 
o Bayes-Klassif izierung von unstrukturiertem Text: 

Vor allem wenn auf eine Vielzahl ahnlicher Dokumente 
zugreifbar ist, konnte eine Klassif ikation der Dokumente 
nach dem Krankheitsbild, Behandlung etc. erfolgen. 
Nach der Haufigkeit von im Text vorkommenden 
Schliisselwortern wird das Dokument einer (aus mehreren) 
Klassen zugeordnet. Der Schlusselwortindex wird wahrend 
einer Trainingsphase anhand von Beispieldokiamenten 



Diese Schicht integriert die verschledenen Datenquellen, sie stellt gegebenenfalls auch eine 
Verbindung zu Referenz-DBs (intern/extern) her und kann auch das Domanenwissen nutzbar 
machen. 
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erstellt und karm laufend erweitert/verbessert warden • 
Kann bei einem Teil der Datensatze durch zusatzliche, 
aus strukturierten Da ten gewonnenen Merkmalen vorab 
eindeutig bestimmt werden, welcher Klasse der "Text" 
zuzuordnen ist, konnte mit diesen Datensatzen die 
Trainingsphase automatisiert werden. 

Bilddaten 

Erkennung des Bildinhaltes durch Vergleich mit 
Referenzbilddatenbank oder Domanenwissen in anderer Form -> 
Entscheidungsunterstiitzung iiber Zugehorigkeit zu 
Patientengruppe 

Patientenidentif izierung durch Kombination Bildinhalt - 
medizinische Datenbank 

Qmics - Daten 

Patientenidentifizierung anhand von Kombinationen omics Daten 
- klinische Daten - Bilddaten 

Entscheidung anhand Vergleich Individualf all mit entsprechend 
qualifizierter Datenbank 

Anwendungsgebiete : 

o Patientenidentifizierung fiir: 
i. Klinische Studien 
ii. Zugehorigkeit zu Risikogruppen (entwickelt 
Krebs etc . ) 

iii. Konnte nach Guideline A behandelt werden 

4. Der erf inderische Schritt liegt darin, zum Zweck der 
Patienten- /Site-Identif izierung Datenquellen zu nutzen, die 
bisher noch nicht genutzt wurden (images, unstrukturierte 
Texte, * omics) , 

Tools und Methoden werden zur Verfugung gestellt, die durch 
die Einbindung von Domanenwissen in Form von 
Referenzdatenbanken, qualif izierten klinischen Datenbanken, 
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omics Daten separat und in der Integration all dieser eine 
Patientenidentif izierung moglich machen, die bisher in dieser 
Form nicht moglich ist • 
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